KAIST突破:多模态提示优化提升AI视觉理解 KAIST的研究团队敏锐地发现了这个问题。他们注意到,虽然多模态大型语言模型(MLLMs)已经能够同时处理文字、图像、视频甚至分子结构等多种类型的信息,但目前的提示优化方法仍然局限在纯文字领域。这就像是给一台既能播放音频又能显示视频的设备,却只提供音频文件一样 模态 视觉 mpo kaist mpo框架 2025-11-14 21:54 8